مقاوم سازی سیستم بازشناسی گفتار پیوسته

پایان نامه

دانشگاه تربیت معلم - تهران - دانشکده فنی
نویسنده محمد بافکار
استاد راهنما منوچهر کلارستاقی فرشاد عشقی
سال انتشار 1392

چکیده

دقت سیستم¬های بازشناسی گفتار در محیط¬های آزمایشگاهی و کنترل شده به میزان قابل قبولی افزایش یافته و امروزه شاهد استفاده از این سیستم¬ها در محیط¬های واقعی هستیم. با این حال، کارایی این سیستم¬ها در حضور نویز به دلیل عدم تطابق بین شرایط و محیط آموزشی و آزمون به شدت افت می¬کند. علاوه بر این، تنوع مشخصه¬های گفتاری گویندگان نیز بر کارایی این سیستم¬ها تاثیرگذار است. در سال¬های اخیر، عمده پژوهش¬های صورت گرفته در زمینه بازشناسی گفتار در راستای کاهش عدم تطابق بین شرایط آموزش و آزمون، در نتیجه افزایش کارایی آنها برای کاربردهای عملی است. انتقال بردار ویژگی، معیار آموزش سیستم، تطبیق مدل با گوینده و مهم¬تر از همه کاهش اثر تخریبی نویز بر کارایی سیستم، اصلی-ترین مباحث در مقوله مقاوم¬سازی سیستم بازشناسی گفتار بوده¬اند. از میان دو دسته عمده روش¬های مقاوم¬سازی در برابر نویز، روش¬های مبتنی بر ویژگی و روش¬های مبتنی بر مدل، دسته دوم از انعطاف بیشتری برخوردار بوده و منجر به بهبود بیشتری می¬شوند. محور اصلی این روش¬ها انطباق پارامترهای مدل آکوستیکی با شرایط آزمون است. در این پایان¬نامه روش¬های مختلف مقاوم¬سازی نسبت به نویز مرور شده و از این بین، بردار سری تیلور (vts) مورد مطالعه دقیق و استفاده قرار گرفته است. آموزش تمایزگرایانه نیز، به عنوان جایگزینی برای معیار بیشینه درست¬نمایی (ml)، در سال¬های اخیر کانون توجه برخی از پژوهشگران بوده است. بیشینه-کردن درست¬نمایی داده¬های آموزشی با معیار ارزیابی سیستم، نرخ خطا، ارتباط چندانی ندارد. گذشته از این، در حالتی که توزیع واقعی داده¬های آموزش مشخص نباشد، معیار تمایزگرایانه نرخ خطای کمتری در مقایسه با معیار بیشینه درست¬نمایی دارد. همین امر موجب شد تا از آموزش تمایزگرایانه (به ویژه روش fbmmi+bmmi) همراه با انتقال بردار ویژگی و آموزش تطبیقی با گوینده (sat) برای آموزش سیستم استفاده شود. برای ارزیابی این روش¬ها از نرم¬افزار kaldi و مجموعه دادگان timit استفاده شد. به¬کارگیری روش ترکیبی معرفی شده بر روی دادگان تمیز منجر به بهبود 5 درصدی دقت نسبت به سیستم پایه شد. برای شرایط نویزی، روش vts پیشنهادی مورد استفاده قرار گرفت که نسبت به vts کلاسیک در بهترین شرایط 7 درصد افزایش نسبی کارایی را به همراه داشته است. بکارگیری این روش با روش ترکیبی پیشنهادی برای داده¬های تمیز بر روی داده¬های نویزی شده دقت سیستم را به طور متوسط تا 34 درصد افزایش داد.

منابع مشابه

مقاوم سازی بازشناسی گفتار برمبنای سیستم شنیداری انسان

در این پایان نامه، یک الگوریتم استخراج ویژگی جدید را معرفی می کنیم که pncc نامیده می شود و مبتنی بر سیستم شنیداری انسان می باشد. ویژگیهای جدید pncc شامل یک غیر خطی قانون توان است که جایگزین غیر خطی لگاریتمی استفاده شده در mfcc شده است، و همچنین شامل یک الگوریتم جدید برای حذف تحریک پس زمینه-با استفاده از تخمین توان با طول متوسط مبتنی بر نسبت میانگین حسابی به میانگین هندسی-و همچنین کاهش توان پس ز...

15 صفحه اول

مقاوم سازی بازشناسی گفتار با اعمال پردازش زیرباندی

در این پروژه مقاوم سازی بازشناسی گفتار در محیط های نویزی بر مبنای پردازش زیرباندی بررسی شده است. مقاوم سازی بازشناسی گفتار یکی از مسائل مهم در این حوزه می باشد که کار بر روی ان همچنان ادامه دارد. از روش های گوناگونی به منظور تحقق یافتن این مهم استفاده می شود و ایده های متنوعی نیز در مقالات و تحقیقات ارائه می گردند. عیب عمده اکثر روشهای پیشهاد شده پیچیدگی زیاد و سرعت کم الگوریتم های آن است. ما د...

15 صفحه اول

بازشناسی احساس از روی گفتار پیوسته فارسی

در سالهای اخیر بازشناسی احساس به عنوان روش جدیدی برای تعامل انسان با کامپیوتر مورد توجه و موضوع تحقیقات زیادی بوده است. احساس، در قالب حرکات چهره، گفتار، حرکات دست و بدن و علایم زیستی مانند ضربان قلب بروز می یابد. مدل پیشنهادی در این پایان نامه از گفتار پیوسته فارسی برای بازشناسی احساس استفاده می کند. بازشناسی احساس از گفتار بر روی زبان های مختلفی انجام شده اما بر روی زبان فارسی تا کنون این چن...

بهبود عملکرد سیستم بازشناسی گفتار پیوسته بوسیله ویژگی‌های استخراج شده از مانیفولدهای گفتاری در فضای بازسازی شده فاز

The design for new feature extraction methods out of the speech signal and combination of their obtained information is one of the most effective approaches to improve the performance of automatic speech recognition (ASR) system. Recent researches have been shown that the speech signal contains nonlinear and chaotic properties, but the effects of these properties are not used in the continuous ...

متن کامل

مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای جمع شونده و نویز کانال

با توجه به اهمیت و نقش بالای مقاوم سازی سیستم های بازشناسی گفتار و گوینده در مقابل نویزهای محیطی، در این مجموعه ابتدا تأثیر استفاده از پیک های طیف دنباله خودهمبستگی به عنوان ویژگی های مقاوم برای استفاده در سیستم های بازشناسی گوینده مورد بررسی قرار گرفته است. سپس تأثیر روش های هنجارسازی ویژگی ها مانند روش حذف میانگین کپسترال، روش پس پردازش mva و روش ویژگی های مفقود بر پیک های طیف دنباله خودهمبست...

15 صفحه اول

روشی جدید در بازشناسی مقاوم گفتار مبتنی بر دادگان مفقود با استفاده از شبکه عصبی دوسویه

Performance of speech recognition systems is greatly reduced when speech corrupted by noise. One common method for robust speech recognition systems is missing feature methods. In this way, the components in time - frequency representation of signal (Spectrogram) that present low signal to noise ratio (SNR), are tagged as missing and deleted then replaced by remained components and statistical ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

نوع سند: پایان نامه

دانشگاه تربیت معلم - تهران - دانشکده فنی

کلمات کلیدی

بازشناسی گفتار سیستم الگوشناسی تجزیه و تحلیل گفتار هوشمندی گفتار سیگنال پردازی صوتی سری تیلور شیوه نیرومندی

میزبانی شده توسط پلتفرم ابری doprax.com